Developers.IO 2019 Tokyoで「Effective Datalake 〜基礎からわかるデータレイクの定義と実践〜」というタイトルで発表してきました #cmdevio
クラスメソッドの石川です。
先日開催いたしましたDevelopers.IO 2019 in TOKYOにお越し頂きましてありがとうございました。 表題の通り、データレイクについてお話をさせて頂きました。
スライド
こちらがスライドになります。
こんな事を話してた
- はじめに
- データレイクとは
- AWS Glue
- Aamzon Athena / Redshift Spectrum
- データ設計のベストプラクティス
- Redshiftからデータレイクの移行
- AWS Lake Formation
- まとめ
まとめ
Glue/Athena/Redshift Spectrumで始まったAWSのデータレイクは、Lake Formationによって統合され大きな進化を遂げました。その過程を私なりの解釈と定義に基づいて、現在に至る基礎的なサービスとその動作原理、データ設計のベストプラクティスについて解説しました。一方、データレイクは、S3上のイミュータブルなデータに対するクエリであるため、レコードの削除や更新には不向きです。DWHとデータレイクを使い分けるポイントとなります。その点では最新のRedshiftはDWHとデータレイクのハイブリッドであり、かつ参照を自動で水平スケーリングできるので最も柔軟な構成といえるでしょう。
データレイクの登場の背景は、従来のDWHの課題やデータ分析環境の変化に伴うものです。AWSのデータレイクの特長は、ロードレスかつオープンなファイルフォーマットの採用です。単に低コスト・高性能であることではなく、機械学習/深層学習をはじめとする様々なオープンソースのエコシステムとの連携することを想定したサービスです。つまりAWSを中心とした様々なデータプラットフォームとなることです。
この機会に一人でも多くの方にAWSのデータレイク関連サービス/AWS Lake Formationに興味を持っていただければ幸いです。